Crear un vehículo autónomo como Tesla: la tecnología que ve el mundo solo con cámaras
El innovador en conducción autónoma, Tesla. ¿Por qué optaron por ver el mundo solo con cámaras y sin LiDAR ni radar? Esta no es una elección simplemente para reducir costos, sino que surge de un visionario objetivo de crear un sistema de conducción autónomo que perciba y juzgue el mundo como lo hace un ser humano. En particular, la conducción autónoma basada en aprendizaje profundo End-to-End que Tesla introdujo con la versión 12 es una innovadora tentativa completamente diferenciada del enfoque modular tradicional.
Los sistemas de conducción autónoma tradicionales están compuestos por varios módulos, como percepción (Perception) para procesar los datos de los sensores, predicción (Prediction) para evaluar las situaciones, planificación (Planning) para trazar rutas y control (Control) para manejar el vehículo. Aunque cada módulo se desarrolla e interconecta de manera independiente, este proceso puede dar lugar a pérdidas de información o errores, lo que dificulta la optimización del sistema en su conjunto.
En contraste, el enfoque de aprendizaje profundo End-to-End de Tesla toma los datos de imagen recopilados por los sensores de cámara y produce directamente señales de control para el volante, acelerador y frenos del vehículo. Esta es una forma de integrar todo el sistema de conducción autónomo en una única red neuronal masiva, similar a cómo un humano ve con los ojos, juzga con el cerebro y mueve el cuerpo. Este enfoque tiene el potencial de simplificar el proceso de manejo de datos, maximizar la eficiencia del sistema en su conjunto y mejorar la capacidad de respuesta ante situaciones imprevistas.
En los capítulos siguientes se analiza a fondo el innovador enfoque basado en visión End-to-End de aprendizaje profundo de Tesla y se presenta cómo implementarlo usando el simulador CARLA.
Se abordan estos temas
La filosofía de la conducción autónoma de Tesla:
- ¿Por qué no usar LiDAR ni radar?
- ¿Qué es el aprendizaje End-to-End y por qué es importante?
- ¿Cuáles son los aspectos clave de la arquitectura HydraNet?
- ¿Cómo funcionan el etiquetado automático (Auto-labeling) y el sistema de aprendizaje en flota?
Construcción del sistema de visión al estilo Tesla
- Configuración de 8 cámaras en el simulador CARLA, optimización de los roles y disposición de cada cámara.
- Construcción de una tubería de preprocesamiento de imágenes para procesar eficientemente los datos de los sensores de cámara.
- Restauración del entorno 3D utilizando técnicas de estimación de profundidad (Depth Estimation) a través de la visión de cámaras.
Alcanzando a Tesla en CARLA
- Implementación de la transformación BEV (Bird’s Eye View) para proporcionar una vista panorámica de 360 grados del entorno alrededor del vehículo.
- Predicción de trayectorias y velocidades de objetos en movimiento mediante extracción de características espacio-temporales (Spatiotemporal Feature Extraction).
- Implementación de conducción autónoma estable incluso en situaciones inciertas a través de la estimación de estado probabilística (Probabilistic State Estimation).
Aquí usted
- Podrá comprender profundamente los principios y tecnologías clave del sistema de conducción autónoma de Tesla.
- Podrá implementar un sistema de conducción autónomo basado en visión al estilo Tesla en el simulador CARLA.
- Podrá experimentar las posibilidades y limitaciones de la tecnología de conducción autónoma que percibe, juzga y controla el mundo solo con cámaras.
- Podrá abrir nuevos horizontes en la tecnología de conducción autónoma a través del enfoque original de Tesla.
Sin LiDAR, sin radar, solo con cámaras. Experimente el desafío audaz de Tesla directamente en el simulador CARLA.